Day 06：機器學習演算法的選擇

2019 iT 邦幫忙鐵人賽

DAY 6

Everything on Azure

2019鐵人賽 ai azure data services

14643 瀏覽

前言

之前我們花了5天作完第一個實驗，從資料的匯入/清理(data cleaning)、模型訓練、模型評估、佈署到系統的整合，乖乖作過一遍，自覺收穫不少，在進行第2個實驗之前，心中有些疑惑，Google了一些資料，將問題與答案整理如下。

EDA(Exploratory data analysis，資料的探索與分析) 大部份的文章都是按字面翻譯成『探索式資料分析』，住要訴求，在開始建立模型前，先與資料培養感情，利用簡單統計與圖表，了解資料的特性與關聯。

ML Studio 確實缺乏EDA，雖然，ML Studio 在『Visualize』選單中提供各個變數的直方圖(Histogram)，但是，要作變數之間的關係分析，這部分好像比較缺乏。

依訓練資料是否標註(label)答案與否，分為『監督式學習』(Supervised Learning)與『非監督式學習』(Unsupervised Learning)。
『監督式學習』(Supervised Learning)依目標變數(Target vaiable, 即 Y)的性質，分為『迴歸』(Regression)與『分類』(Classification)。

圖. 迴歸與分類，資料來源：Machine Learning: a brief breakdown
『非監督式學習』最常用的演算法用途為『集群分析』(Clustering)，與『分類』(Classification) 類似，依訓練資料的特徵分為特定個數的集群。另一類用途就是『降維』(Dimensionality reduction)，主要是特徵(自變數)過多或避免過度擬合，針對特徵作『特徵選取』(Feature Selection)或『特徵萃取』(Feature Extraction)。